为什么中国的参与必不可少?我参加首届全球人工智能安全峰会的所见所思(万字回顾)
导读
我作为安远AI的代表,受邀全程参会并在一些环节参与了讨论,介绍了我和我同事的研究成果。尤其是在峰会第一天闭幕全体大会环节,我受英国科学、创新和技术大臣米歇尔·唐兰的邀请,还分享了当天的总结和感触。参加本次大会收获颇丰,也感悟很多。感谢三思派约稿,在这个平台上更加详细地分享我参会的一些观察和思考。
本文分为五个主要章节,包括:
一、前沿人工智能安全成为全球议题的背景
二、全球人工智能安全峰会的主要成果
三、中国在管控人工智能风险的全球对话中不可或缺
四、我作为受邀专家参与的圆桌讨论和闭幕分享
五、对中方支持《布莱切利宣言》的五点展望和建议
前沿人工智能安全成为全球议题的背景
在举行首届全球人工智能安全峰会前半年,国际机构和领袖已开始关注人工智能可能带给人类社会的灾难性风险,2023年7月,联合国安理会举行了首次讨论人工智能安全的会议,秘书长古特雷斯在会上表示,如果我们不采取行动应对生成式人工智能的创造者们警告的“可能是灾难性的或生存性的”风险,那么我们就“疏忽了对现在和未来世代应承担的责任”。2023年9月,欧盟委员会在社交媒体上表示,“防范AI的生存风险应成为全球优先议题。”管控人工智能的安全风险迫在眉睫,模型能力在未来几年内仍存在数量级进步的空间。谷歌的下一代大模型Gemini已开始在TPUv5 Pod上进行训练,算力高达~1e26 FLOPS,是训练GPT-4的5倍。Inflection在未来18个月内将用比当前前沿模型GPT-4大100倍的计算能力。Anthropic预计在未来的5年里用于训练最大模型的计算量将增加约1000倍。
全球人工智能安全峰会的主要成果
1.负责任的能力扩展(Responsible Capability Scaling): 为组织扩展前沿人工智能系统能力提供了一个风险管理框架,使公司能够在更危险的人工智能风险发生前为其做准备。
2.模型评估和红队演练 (Model Evaluations and Red Teaming): 可以帮助评估人工智能模型带来的风险,并为有关模型的训练、保护和部署做出更明智的决定。
3.模型报告和信息共享 (Model Reporting and Information Sharing): 提高政府对前沿人工智能发展和部署的可见性,并使用户能够对如何使用人工智能系统做出明智的选择。
4.包括保护模型权重的安全控制措施 (Security Controls Including Securing Model Weights): 是人工智能系统安全的关键支撑。
5.漏洞报告结构 (Reporting Structure for Vulnerabilities): 使外部人员能够识别人工智能系统中的安全和安全问题。
6.人工智能生成内容的标识符 (Identifiers of AI-generated Material): 提供有关内容是否由人工智能生成或修改的额外信息,帮助防止虚假人工智能生成内容的产生和传播。
7.优先研究人工智能带来的风险 (Prioritizing Research on Risks Posed by AI): 将有助于识别和解决前沿人工智能带来的新兴风险。
8.预防和监控模型误用 (Preventing and Monitoring Model Misuse): 因为一旦部署,人工智能系统可能会被故意误用以产生有害结果。
9.数据输入控制和审计 (Data Input Controls and Audits): 可以帮助识别和删除可能增加其前沿人工智能系统所具有的危险能力及风险的训练数据。
同时,英国政府的前沿人工智能安全新兴流程补充了公司的安全政策,为前沿人工智能组织的安全政策提供了一个潜在的清单。这旨在对讨论做出初步贡献,并且需要定期更新。第四,寻求人工智能安全研究的潜在合作领域,包括评估模型能力和制定新的治理标准。在峰会开幕式上,美国商务部长雷蒙多宣布建立美国人工智能安全研究所(US AI Safety Institute),支持拜登签署的行政令赋予商务部的责任。该研究所将设在美国商务部内,具体隶属于该部的国家标准与技术研究院(NIST)。美国人工智能安全研究所将促进人工智能模型的安全性、安保性和测试标准的制定,制定认证人工智能生成内容的标准,并为研究人员提供测试环境来评估新兴的人工智能风险并解决已知的影响。在峰会期间,英国首相苏纳克宣布成立负责评估前沿人工智能风险的英国人工智能安全研究所 (UK AI Safety Institute)。该研究所将在人工智能模型发布前后仔细测试所有风险,从偏见和错误信息等社会伤害,到比如人类完全失去对人工智能的控制等极端风险。英国政府已经同意与两个国际伙伴建立合作关系:与美国人工智能安全研究所以及新加坡政府合作开展人工智能安全测试。该研究所也希望和其他国家和国际机构(包括政策制定者、国际伙伴、私营公司、学术界、民间社会和公众之间)建立信息共享渠道。根据白宫人工智能行政命令和英国政府文件,模型危险能力的评估包括化学、生物、放射、核(CBRN)风险、网络攻击,以及“人工智能通过欺骗或模糊手段逃避人类控制或监督”。第五,探讨人工智能安全发展如何促进全球福祉。在峰会期间,英国政府宣布与加拿大政府、比尔和梅林达·盖茨基金会、美国政府以及各个非洲伙伴合作,筹集8000万英镑用于“人工智能为发展”计划,目标包括:帮助至少5个非洲国家在人工智能的全球讨论中具有全球影响力,包括在利用人工智能助力实现可持续发展目标方面;建立或扩大至少8个在非洲大学的负责任人工智能研究实验室;帮助至少10个国家制定负责任、公平和安全的人工智能健全监管框架。成果与共识之外,峰会上的一个主要争论点是关于开源模型的风险和利弊。在峰会前一天,图灵奖得主杨立昆等1000多位人工智能从业者联合署名公开信,表示开放透明是确保人工智能安全的重要手段。公开信承认开源模型存在风险和漏洞,包括模型可能被恶意行为者滥用的风险。但整体而言,增加公众审查和独立研究使技术更安全。同时,Bengio等表达开源未来更强大模型的担忧,认为一旦发布带有危险能力的模型就无法收回,将打开网络攻击和生物技术的“潘多拉魔盒”。整体而言,峰会上的圆桌讨论呈现不同的态度,鼓励更多讨论以权衡风险和不同安全方案。中国在管控人工智能风险的
全球对话中不可或缺
国际社会高度关注中国科技部和外交部参与会议。中国科技部副部长吴朝晖在11月1日举行的开幕式全体会议上发言,宣介中方提出的《全球人工智能治理倡议》。中方指出,人工智能治理攸关全人类命运,是世界各国面临的共同课题。发展人工智能,应当积极倡导以人为本,智能向善,加强技术风险管控,并在相互尊重、平等互利的原则基础上,鼓励各方协同共治,增强发展中国家在人工智能全球治理中的代表性和发言权,不断弥合智能鸿沟和治理能力差距。
我作为中方专家之一
参与圆桌讨论和闭幕分享
1.大模型Agent的持续进步。比如大模型不再陷入循环,在长时推理和决策中有了进步。例如,清华大学的AgentBench可以评估大模型Agent面对广泛的实际挑战的表现。
2.人工智能系统自主复制的风险。比如编写语言模型蠕虫传播到其他网络系统的能力。完成许多这样的任务可能预示着未来人工智能系统具备在全球服务器网络中扩散并避开人类检测的可能性。这类似我们网络安全领域面临的计算机蠕虫问题。
3.人工智能系统的自我改进能力。例如,目前已经有利用人工智能生产训练数据集或在强化学习中向模型提供反馈的可能性。”
圆桌讨论的总结中表示“我们需要在安全环境下严格测试模型,并进一步研究失控风险的场景。”第一天下午聚焦风险应对,包括:前沿人工智能开发者应该做什么来负责任地扩展能力;国家决策者应该如何应对人工智能的风险和机遇;国际社会应该如何应对人工智能的风险和机遇;科学界应该如何应对人工智能的风险和机遇圆桌会议。我参与“前沿人工智能开发者应该做什么来负责任地扩展能力”圆桌讨论。在OpenAI、DeepMind和Anthropic的CEO分别汇报各自机构的Capability Scaling Policy后,我提出第三方评测、政府监管和全球民意等视角。发言的中文翻译如下:“我对在座各家企业迈出正确方向的初步措施表示赞赏,但我们必须加快强大的监管,使政策真正负责任。
第一,能力扩展政策(Capability Scaling Policy)最终应该受到政府监管。在公共安全问题上,我们不能让行业自己给自己打分。
第二,前沿开发者应该支持第三方评估生态系统的发展,特别是在缺乏建立专业知识的新领域。目前全球范围内有数百到数千的生物安全风险和网络风险专家,但是只有几个创业团队在进行欺骗对齐或自主复制能力的安全评测。
第三,我们需要全球监察的机制。随着公司在未来几年将AI系统扩大100-1000倍并可能增加全球生物风险,人工智能风险管理的重要性正在迅速接近与最高生物安全等级BSL-4实验室相匹配的风险水平,
最后,如果前沿开发者有朝一日能发展超级人工智能的时候,开发者必须倾听全球公众舆论:全人类是否已准备好历史上这样一个颠覆性的发展?”
圆桌讨论的总结中表示:“公司政策只是基线,不能替代政府制定标准和监管的需求。特别是,可信的外部第三方将需要提供标准化的基准测试。”在峰会第一天闭幕全体大会环节,我受英国科学、创新和技术大臣米歇尔·唐兰邀请分享当天总结和感触,强调了以下三点:首先,确保全球人工智能安全符合全世界的共同利益。来自人工智能的风险——从灾难性滥用、未知的危险能力,到潜在的人类控制力丧失——不会受到国界的约束。我们有集体责任来保护现在和未来的世代。
其次,国际合作将带来更多人工智能安全的进展。通过鼓励世界各地杰出研究人员之间的合作,我们可以想出更好的人工智能安全解决方案。随着各国制定人工智能治理框架,我们有一个黄金机会来交流经验和相互学习。我们应该共同努力建立国际机构来管治人工智能带来的风险和机遇。
第三,我们必须包括和赋权来自全球南方国家的声音。随着时间推移和人工智能能力的传播,全球人工智能治理体系的成功最终将取决于全世界的支持。前沿人工智能的发展将影响全人类未来,因此让每一个人都对这应该如何发展有发言权,在道德上也是正确的。
对中方支持《布莱切利宣言》
的五点展望和建议
在中国已签署支持《布莱切利人工智能安全宣言》的基础上,我个人也有一些感想:第一,对于在国内成立前沿人工智能安全测试机构的必要性和紧迫性,及时开展论证。目前英国和美国已各自建立人工智能安全研究所(UK & US AI Safety Institute)。新加坡政府今年也成立了类似的人工智能验证基金会 (AI Verify Foundation)。开展前沿人工智能安全测试符合我国《全球人工智能治理倡议》提出的“推动建立人工智能风险等级测试评估体系”“积极发展用于人工智能治理的相关技术开发与应用”等原则,应考虑实践落地的不同方式。第二,对于前沿大模型的安全和治理最佳实践,积极开展研究和落地。峰会中讨论了AI安全级别(ASL)框架以应对潜在风险,参考了处理危险生物材料的生物安全级别(BSL)标准,基本思想是要求与模型潜在风险相适应的安全、安保和操作标准,更高的ASL级别需要越来越严格的安全证明。预计未来半年内,我国多个前沿大模型科研机构和企业将达到或突破GPT-4性能,达到ASL-2能力级别。确保相适应的安全标准,行业自律和政府监管缺一不可。第三,对于分配更多研发资金用于人工智能安全研究,研判紧迫性和具体路径。在峰会前两周,三位图灵奖获得者、一位诺贝尔奖获得者、国内多位院士共同撰文《人工智能飞速进步时代的风险管理》并签署了一份联合声明,提出分配至少三分之一的人工智能研发资金用于确保人工智能系统的安全性和合乎伦理的使用。根据《中国人工智能安全全景报告》,中国在鲁棒性研究方面已进行了具有国际影响力的工作,对中文大模型的安全性评测也具有国际科研和政策意义。
第四,对于在联合国框架下成立国际人工智能治理机构,准备更具体的讨论方案。《全球人工智能治理倡议》表示积极支持在联合国框架下讨论成立国际人工智能治理机构,协调国际人工智能发展、安全与治理重大问题。下届人工智能安全峰会的联合东道主韩国总统尹锡悦也表态支持在联合国框架下成立国际机构。联合国高级别人工智能咨询机构的初步建议和2024年9月举办的联合国未来峰会都是关键窗口,需要对国际人工智能治理机构的设想有更具体和深入的方案。第五,对于全球南方的可持续发展需求,我们必须在确保前沿人工智能安全的同时,力求实现兼顾。例如,呼应《全球安全倡议》向发展中国家提供一定的人工智能治理人才研修培训名额;推进金砖国家人工智能研究组;推动类似“鹏城·脑海”的项目,构建了一套涵盖中文、英文及50余个“一带一路”沿线国家及地区语种的多样化语料数据集和数据质量评估工具集,为对齐多元人类价值观做出贡献。半个多世纪前,“现代计算机科学与人工智能之父”阿兰·图灵在布莱切利园发明了世界第一代图灵计算机。图灵曾在《计算机和智能》的结尾写道:“吾等目力短亦浅,能见百事待践行。” (We can only see a short distance ahead, but we can see plenty there that needs to be done.)
致谢:感谢安远AI的同事们为本次会议做出的努力。感谢一同参会的国家新一代人工智能治理专委会委员曾毅教授给予的悉心指导。文章若存在任何错误或曲解,均由安远AI独自承担责任。
END